import pandas as pd
import numpy as np
df1=pd.read_excel('附件3.1.xlsx')
def material(e):
    e=e.dropna(how='all',axis=1)
    f=e.columns
    f=f.tolist()
    return f[2:]
#定义函数获取一个企业肥料所用原料
x=df1.groupby('企业名称')['序号'].count()
x=x.reset_index()
x=x[x['序号']>10]
a=x.企业名称.unique()
print(a)
b={}
for i in a:
    e=df1[df1.企业名称==i]
    material(e)
    if  material(e)!=None:
        c={i:material(e)}
        b=dict(b,**c)

q=[]
for i in b:
    for j in b:
        x=len(list(set(i)&set(j)))
        y=len(list(set(i)|set(j)))
        result=x/y
        result='{:.1f}'.format(result)
        q.append(result)
q=np.array(q)
q=q.reshape(10,10)
p=pd.DataFrame(q)
p.columns=['企业1','企业2','企业3','企业4','企业5','企业6','企业7','企业8','企业9','企业10']
p.index=['企业1','企业2','企业3','企业4','企业5','企业6','企业7','企业8','企业9','企业10']
p=p.replace('1.0',np.nan)
p.to_excel('result3_3.xlsx')







